Mô hình hỗn hợp là gì? Các nghiên cứu khoa học về Mô hình hỗn hợp

Mô hình hỗn hợp là khung thống kê cho phép mô tả phân phối xác suất đa đỉnh thông qua kết hợp nhiều thành phần xác suất cơ bản với trọng số cố định. Thành phần có thể là phân phối Gaussian, Bernoulli hay Poisson, kết hợp theo biểu thức p(x)=∑ₖ πₖ pₖ(x|θₖ) nhằm phản ánh tính bất đồng nhất dữ liệu.

Định nghĩa và khái niệm cơ bản

Mô hình hỗn hợp (mixture model) là khung thống kê mô tả phân phối xác suất tổng hợp từ nhiều thành phần con khác nhau, mỗi thành phần đại diện cho một phân phối xác suất cơ bản. Thay vì giả sử dữ liệu tuân theo một phân phối đơn lẻ, mô hình hỗn hợp cho phép biểu diễn dữ liệu phức tạp đa đỉnh hoặc không đồng nhất thông qua sự tổ hợp có trọng số của các phân phối này.

Các thành phần con trong mô hình hỗn hợp thường được lựa chọn từ những phân phối phổ biến như Gaussian, Bernoulli, Poisson hoặc các phân phối đa biến phức tạp hơn. Trọng số của mỗi thành phần, ký hiệu πk, thể hiện xác suất dữ liệu thuộc về nhóm k và thỏa mãn điều kiện 0πk1,k=1Kπk=10 \le \pi_k \le 1, \quad \sum_{k=1}^K \pi_k = 1. Điều này giúp mô hình hóa tính chất hỗn độn (heterogeneity) của tập dữ liệu trong nhiều ứng dụng thực tế.

  • Tính linh hoạt cao khi mô hình hóa các đỉnh phụ (sub-peaks) trong dữ liệu.
  • Khả năng phân loại mềm (soft clustering) dựa trên xác suất thành phần.
  • Ứng dụng rộng trong thị trường tài chính, xử lý ảnh và sinh học.

Ví dụ, khi phân đoạn ảnh y tế, mỗi pixel có thể sinh ra từ một trong nhiều mô hình phân phối cường độ khác nhau, giúp tách biệt tế bào, mô và nền một cách hiệu quả.

Cơ sở xác suất và giả thiết thành phần

Mô hình hỗn hợp giả định mỗi quan sát xi được sinh ra từ một thành phần ẩn zi ∈ {1,…,K}, trong đó P(zi=k)=πk. Thành phần ẩn này xác định phân phối pk(xik) sinh giá trị quan sát.

Cơ sở xác suất của mô hình hỗn hợp tổng quát được viết dưới dạng: p(x_i) = \sum_{k=1}^K \pi_k \, p_k(x_i \mid \theta_k), \end{script> trong đó θk là tham số riêng của thành phần thứ k. Mỗi phân phối pk có thể là Gaussian đa biến với vector kỳ vọng μk và ma trận hiệp phương sai Σk, hoặc phân phối rời rạc như Poisson với tham số λk.

  • Biến tiềm ẩn zi: phân phối rời rạc categorical.
  • Trọng số πk: tham số prior, xác định tần suất thành phần.
  • Thành phần con pk(x|θk): phân phối điều kiện, thường là Gaussian, Bernoulli, v.v.

Giả thiết về tính độc lập (i.i.d.) giữa các quan sát giúp biểu diễn hàm khả năng chung (joint likelihood) của toàn bộ tập dữ liệu một cách đơn giản.

Biểu diễn toán học

Cho tập dữ liệu X={x1,…,xN}, tham số của mô hình là θ={π1…K1…K}. Hàm khả năng (likelihood) của dữ liệu được viết: